Python爬虫——多进程multiprocessing

其实多进程相对来说不是特别适合用来做爬虫,因为多进程比较适用于计算密集型,而爬虫是IO密集型,因此多进程爬虫对速度的提升不是特别明显,但是将爬虫改为多进程比较简单,只需简单的几行代码即可搞定,所以在修改我的爬虫提升效率时,我最先实现的是多进程爬虫。(然而速度真心还是慢,我多线程+协程的程序跑的晚,却早已经结束工作了,多进程的还在苦战…)

下面我通过实例来进行介绍。

我爬取的数据是外文数据库的摘要信息,总共有几百万条记录,因此我首先将抓取得到的url列表文件进行分割,减小对内存的压力,免得全部加载占用内存过高(昨天看了关于迭代器的内容,感觉如果使用迭代器的话,效果会更好一点,减少很多内存压力,等我试水成功后再更新)。由于很多小伙伴可能没有访问外文数据库的权限,因此我在此不把url数据上传,对抓取的html页面进行分析的内容也不放上来。主要介绍如何改造原有代码为多进程爬虫。

# python2环境,3下差别不大(reload代码可能无法使用)
import requests
from bs4 import BeautifulSoup
import multiprocessing
import json
import datetime
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
path = sys.path[0] + '/data/'

多进程需要导入multiprocessing包。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值